以下の組み合わせからなる

  • 強いVLMの知識
  • 領域レベルへの適応
  • 疑似ラベル生成
  • 大規模弱教師データ

代表論文がしていること

  • ViLD
    事前学習済みのオープン語彙分類モデルを教師にして、その知識を2段階検出器へ蒸留する枠組みです。要するに「分類モデルが持つ言語知識を検出器へ移す」アプローチで、OVDの出発点として非常に重要です(ViLD)。Open-vocabulary Object Detection via Vision and Language Knowledge Distillation
  • RegionCLIP
    CLIPは画像全体と文を対応づけるので、物体領域単位では弱いという問題に対して、領域とテキストを直接そろえる事前学習を導入しました。OVDで重要な「image-level pretraining と region-level detection のギャップ」を正面から扱った代表作です(RegionCLIP)。
  • DetPro
    手作業プロンプトではなく、検出向けの連続プロンプトを学習してテキスト埋め込みを改善する研究です。背景領域や文脈の違いを考慮して、分類寄りのprompt learningを検出向けに作り直した点がポイントです(DetPro)。
  • PromptDet
    領域特徴とテキスト特徴をregional prompt learningでそろえつつ、ノイズの多いWeb画像を使ったself-trainingで語彙を広げる研究です。追加の人手アノテーションなしでスケールさせる方向を強く打ち出しています(PromptDet)。
  • CORA
    DETR系で、whole imageで学習されたCLIPをregion recognitionへ適応するためのregion promptingと、未知カテゴリでも位置を当てやすくするanchor pre-matchingを導入しています。認識だけでなく未知カテゴリの局在化を重視した論文です(CORA)。
  • DITO
    疑似ラベルに頼りすぎず、事前学習の段階から検出器ヘッドを組み込んだregion-centric image-language pretrainingを行います。近年の流れとして、「後段で頑張る」より「事前学習自体を検出向けにする」方向を示す代表例です(DITO)。
  • LaMI-DETR
    GPTやT5を使ってカテゴリ間の関係や視覚概念を補い、ベースカテゴリへの過学習を減らそうとする研究です。VLMの内部表現だけでは足りない知識をLLMで補強する流れに属します(LaMI-DETR)。
  • DECOLA
    言語条件付き検出器でimage-level labelsからより質の高い疑似ボックスを作り、その疑似注釈で最終的なOVDを学習します。ポイントは「疑似ラベル生成器自体を賢くする」ことです(DECOLA)。
  • OWLv2 / OWL-ST
    Webスケールの画像・テキスト対に対して自己学習で疑似ボックスを大量生成し、10M規模から1B規模までスケールさせた研究です。今のSOTA潮流の一つは、設計の工夫だけでなくデータと学習規模で押し上げることです(Scaling Open-Vocabulary Object Detection)。
  • OV-DINO
    多様なデータを検出中心の形式に統合するUniDIと、言語を見ながら選択的に融合するLASFで、疑似ラベルノイズとクロスモーダル整合の問題を同時に扱います。最近の統合型フレームワークの代表です(OV-DINO)。

研究の流れ

大まかには次の4段階です。

  • 第1段階: 分類モデルの知識蒸留
    ViLDのように、CLIP系モデルの知識を検出器へ移す方向です(ViLD)。
  • 第2段階: 領域とテキストの整合
    RegionCLIP、DetPro、CORAのように、画像全体で学んだ表現を物体領域へ適応する工夫が中心です(RegionCLIP, DetPro, CORA)。
  • 第3段階: 疑似ラベルと自己学習
    PromptDet、DECOLA、OWLv2、OV-DINOのように、大量の弱教師データやWebデータで語彙と局在能力を拡張する流れです(PromptDet, DECOLA, Scaling Open-Vocabulary Object Detection, OV-DINO)。
  • 第4段階: 外部知識や評価の高度化
    LaMI-DETRのようにLLMを使った知識補強や、OVDEvalのように属性・位置・関係理解まで評価する流れです(LaMI-DETR, OVDEval)。

いまの主要課題

  • 画像レベル事前学習と領域レベル検出のギャップ
    CLIP系モデルは画像全体には強い一方、物体境界や小物体、部分の識別は弱く、このミスマッチが何度も問題視されています(RegionCLIP, CORA, DITO)。
  • 未知カテゴリの局在化が難しい
    クラス名は分かっても、どこにその物体があるかを当てるのが難しいです。多くの手法が認識性能だけでなく、局在化の一般化を改善する仕組みを別途入れています(CORA, ViLD)。
  • 疑似ラベルのノイズ
    self-trainingやWeb拡張は強力ですが、誤ったボックスや誤ラベルが簡単に増幅されます。最近の論文はかなりの割合でこの問題を中心課題として扱っています(PromptDet, DECOLA, Scaling Open-Vocabulary Object Detection, OV-DINO)。
  • ベースカテゴリへの過学習
    学習時に見たカテゴリに引っ張られ、novel classで急に弱くなる問題です。LaMI-DETRはこの問題を明示的に扱っています(LaMI-DETR)。
  • プロンプトや語彙表現への依存
    同じ物体でも表現の仕方で精度が揺れます。これは「真に概念を理解しているのか、それともテキスト表現に敏感なだけか」という問題につながります(DetPro, OVDEval)。
  • 細粒度理解の弱さ
    属性、部位、位置関係、物体間関係の理解が不十分で、単純な物体カテゴリ認識を超えると性能が落ちやすいです。OVDEvalは既存モデルがその点でかなり弱いことを示しています(OVDEval)。
  • 評価設定そのものが不十分
    既存ベンチマークは「novel classを当てられるか」には強い一方、本当にopen-vocabularyらしい理解を測れていないという批判があります(OVDEval)。
  • スケール依存
    最近の高性能化は、より賢い構造だけでなく、より大量のWebデータと計算資源に強く依存しています。研究としては伸びていても、再現性や研究コストの面では課題です(Scaling Open-Vocabulary Object Detection, OV-DINO)。

現状の拡散モデルとの統合

  • 合成データで novel / long-tail を増やすこと(InstaGen, CVPR 2024)
  • region-text pair や hard negative を作って教師信号を濃くすること(RTGen, Generating Enhanced Negatives, CVPR 2024)
  • 分布整合を確率モデルとして扱うこと(CLIFF, ECCV 2024)